AI/云端服务器专用: 高精度、高可靠性 DDR5 内存电源解决方案
Kunhung Chen, Payne Lin, Frank Chang, Sophia Tong | AN093
随着云端运算、大数据及 AI 应用快速发展,服务器内存电源面临高精度、低噪声、高可靠度及高能效等多重挑战。立锜针对 DDR5 服务器内存,推出一系列高整合电源管理 IC 解决方案,透过快速补偿环路、智能型电压控制及多重保护机制,确保内存稳定运作并提升系统可靠性与能效。此系列解决方案不仅能提升整体电源效率与系统可靠度,同时协助客户因应多元应用需求,推动服务器产业升级。
1. 服务器内存电源面临的主要挑战
随着云端运算、大数据分析及人工智能等应用的快速发展,现代服务器对于内存的需求不断提升。内存模块的容量与速度持续增加,对电源供应的要求也随之提高。服务器内存电源在设计与应用上,主要面临以下几项挑战:
1.1 低电压容忍度架构下,仍需实现超高电压精度与低噪声输出
高精度电压供应是确保内存稳定运作的关键。内存模块对电压的容忍度极低,任何微小的电压波动都可能导致数据错误或系统不稳定。因此,电源必须具备极高的电压调节精度与低噪声特性。如下表为 DDR5 规范各组输出电压的精准度规格需求。
表格 1. 输出电压规格
|
VDD |
VDDQ |
VPP |
| Typical Output Voltage |
1.1V |
1.1V |
1.8V |
| DC + AC Tolerance |
+/-2.5% |
+/-2.5% |
+/-2.5% |
| DC Accuracy |
+/-0.75% |
+/-0.75% |
+/-0.75% |
注 1. 详细规格请参阅参考资料:JESD301-5,PMIC5030 规范。
1.2 在热插入与瞬间过压风险下,需确保长时间可靠运作
高可靠性是服务器电源设计不可妥协的要求。服务器通常需要长时间不间断运作,任何电源故障都可能造成数据遗失或服务中断,带来巨大的经济损失。因此,电源 IC 必须具备过压/过流/过温保护等多重防护机制以及组件必须有足够的过压承受力,以确保系统长时间稳定运行。在服务器电源应用中,可能发生热插入的测试情境,由于服务器内存模块同时需输入高压 12V 与低压 3.3V 两组电源,且内存模块金手指的设计可能导致这两个电源插拔过程发生短路的现象(参考下图),此时,考验电源管理 IC 组件的可靠性,须具备足够的过压承受力以确保模块不会发生损毁。
图1. RDIMM 金手指示意图(VIN_BULK 与 VIN_MGMT 为相邻 PIN)
1.3 高功率密度模块电源架构,仍需提升效率与热管理稳定性
能效与热管理也是重要挑战。服务器机房的能源消耗庞大,电源转换效率的提升不仅能降低运营成本,也有助于减少碳排放。此外,随着功率密度提升,如何有效管理热能、避免过热,也是设计时必须考虑的重点。如下图所示,在 DDR5 世代中,将电源管理 IC 放到内存模块上,有别于旧世代 DDR4 放在主板上的作法,如此一来,提高整体电源的功率密度,效率提升与温度监控变得更加重要。
图 2. DDR5 RDIMM 内存模块
2. 立锜服务器内存电源解决方案
针对前述在可靠性、电压精度、能效与热管理等多重设计挑战,立锜提出了一系列的服务器内存电源解决方案,从电路设计、组件选择到系统整合应用测试,全面提升产品性能与可靠性。针对每一代 DDR5 服务器内存规格需求(不同容量、传输速度),立锜均有提供对应且合适的电源解决方案,协助客户因应不同的应用需求,整理如表格 2 与 表格 3 所示。更多详细产品规格,请参考立锜官网,或咨询立锜业务。
表格 2. 立锜服务器 DDR5 PMIC 解决方案系列
| Generation |
Server Low Current |
Server High Current |
Server Extreme Current |
Sever Extreme Current Gen2 |
| JEDEC Standard |
P5010 |
P5000 |
P5020 |
P5030 |
| Richtek Solution |
RTQ5119A |
RTQ5150A |
RTQ5152 |
RTQ5153 |
| Application |
RDIMM |
RDIMM, CXL MM |
RDIMM, MRDIMM, CXL MM |
RDIMM, MRDIMM, CXL MM |
| Generation |
Server Low Current |
Server High Current |
Server Extreme Current |
Sever Extreme Current Gen2 |
表格 3. 不同 DIMM 容量与传输速率对应的 DDR5 PMIC 应用表
| Card |
Config. |
DRAM Density |
DIMM Capacity |
DDR5 Transfer Rate (MT/s) |
| 4400 |
4800 |
5600 |
6400 |
7200 |
8000 |
>=8800 |
| RDIMM |
1Rx8 |
16 Gb |
16 GB |
RTQ5119A (P5010) |
RTQ5119A or RTQ5150A (P5010/5000) |
RTQ5152 (P5020) |
RTQ5153 (P5030) |
| 24 Gb |
24 GB |
| 32 Gb |
32 GB |
| 2Rx8 |
16 Gb |
32 GB |
| 24 Gb |
48 GB |
RTQ5150A (P5000) |
RTQ5150A or RTQ5152 (P5000/5020) |
| 32 Gb |
64 GB |
4Rx8 (DDP) |
16 Gb |
64 GB |
| 24 Gb |
96 GB |
| 32 Gb |
128 GB |
| 2Rx4 |
16 Gb |
64 GB |
| 24 Gb |
96 GB |
| 32 Gb |
128 GB |
4Rx4 (3DS, SDP or DDP) |
16 Gb |
128 GB |
RTQ5152 (P5020) |
| 24 Gb |
192 GB |
| 32 Gb |
256 GB |
8Rx4 (3DS) |
16 Gb |
256 GB |
| 24 Gb |
384 GB |
| 32 Gb |
512 GB |
| MRDIMM |
2Rx8 |
16 Gb |
32 GB |
RTQ5152 (P5020) MR - 8.8GT/s |
|
RTQ5153 (P5030) MR - 12.8GT/s and above |
|
| 24 Gb |
48 GB |
| 32 Gb |
64 GB |
| 4Rx8 |
16 Gb |
64 GB |
| 24 Gb |
96 GB |
| 32 Gb |
128 GB |
| 2Rx4 |
16 Gb |
64 GB |
| 24 Gb |
96 GB |
| 32 Gb |
128 GB |
4Rx4 (3DS, SDP or DDP) |
16 Gb |
128 GB |
| 24 Gb |
192 GB |
| 32 Gb |
256 GB |
3. 设计方案优势
3.1 高精准、低噪声电源控制架构
首先,在高精度电压供应方面,立锜采用先进的 A2RCOT 电压回馈控制技术,搭配高精度参考电压源与低噪声设计,确保输出电压误差小于 ±0.75%。同时,透过内建补偿与自动更正机制,有效抑制温度漂移与负载变动对输出电压的影响,满足内存模块对电源精度的严苛要求。以下分别针对温度特性、负载调节与动态响应进行说明,更多 A2RCOT 电压回馈控制技术信息可参考产品规格书。
图 3. A2RCOT 控制迴路
3.1.1 符合 JEDEC 标准的优异温度补偿特性
图 4 至 图 6 显示 RTQ5153 与主要竞品在不同温度环境下的输出电压特性比较。针对服务器 DDR5 应用,电源管理 IC 的温度稳定性至关重要,因为服务器常需长时间运作于高温或低温等严苛环境,任何电压波动都可能影响内存的数据完整性与系统稳定性。
立锜 RTQ5153 在 -20 度至 80 度温度条件下,输出电压曲线始终维持高度稳定,波动幅度远低于 JEDEC 标准规格要求(小于+/- 0.75%)。与其他竞争对手相比,RTQ5153 在高温或低温下的输出电压变化更小,展现出更优异的温度稳定性。
|
|
|
|
图 4. VDD(SWA/B/E) 输出电压与温度变化
|
图 5. VDDQ(SWC/F) 输出电压与温度变化
|
|
|
|
|
图 6. VPP(SWD) 输出电压与温度变化
|
|
3.1.2 符合 JEDEC 标准,的精准输出电压调节
图 7 至 图 9 为 RTQ5153 与主要竞品在不同负载条件下的输出电压特性比较。针对服务器 DDR5 内存应用,电源管理 IC 必须能够因应内存动态负载变化,持续提供稳定且精确的电压输出。若电压波动过大,将可能导致数据传输错误、系统不稳定,甚至影响服务器整体效能。
立锜 RTQ5153 在各种负载变化下,输出电压曲线展现出平滑且稳定的特性,波动幅度远低于 JEDEC 标准规格要求(小于+/- 0.75%),并明显优于其他竞争对手。
|
|
|
|
图 7. VDD(SWA/B/E) 负载与输出变化
|
图 8. VDDQ(SWC/F) 负载与输出变化
|
|
|
|
|
图 9. VPP(SWD) 负载与输出变化
|
|
3.1.3 快速实时的动态响应
立锜 DDR5 电源管理 IC 系列具备先进的电源控制技术,具有高电源稳定性。首先,其内建快速的补偿环路,能够实时侦测并响应负载的快速变动,显著降低输出电压在负载突变时的跌落量,确保系统运作的稳定性与可靠性。此外,还搭载智能型输出电压抗 overshoot 机制,当系统卸除时,控制环路能够实时反应,主动关闭下桥,有效抑制输出电压的过高变动,避免因电压 overshoot 导致的组件损坏或系统异常。表格 4 可以看到立锜与他厂竞品的负载阶跃比较 (load step) 比较,在不同测试条件下,皆优于竞品。
表格 4. 立锜与竞品的负载阶跃比较
3.2 高可靠度、多重防护机制
在高可靠性设计上,立锜解决方案内建多重保护机制,包括过压、过流、短路及过温保护,如图 10 所示,确保在异常状况下能实时反应并保护系统安全。此外,针对服务器应用,立锜提供更高的电源输入脚位耐压,解决内存模块插拔时可能发生的短路过压问题,进一步提升系统的可用性与容错能力。
图 10. DDR5 PMIC 保护功能
3.2.1 输入过压及欠压保护机制
系统需要输入过压与欠压保护,是为在电源异常(如浪涌、热插入尖峰、电池电量过低、供电错配)时避免组件过应力与功能失常,如图 11 和图 12 所示。过压可能造电容与 MOSFET 击穿,欠压则易引发 Brownout、数据读写错误与反复重启等情形。透过保护机制在异常状况出现时立即关闭后级 VR 并于相对的缓存器置位故障旗标,系统得以迅速进入安全状态、执行诊断并在异常状况排除后恢复正常状态。此措施可提升可靠度与寿命、降低维修与保固成本,避免安全风险扩大并维持整体运作稳定。立锜产品在输入过压及欠压保护皆有不同的设定准位,方便系统设计者规划整体系统保护,详细内容可参考各产品之规格书。
|
|
|
|
图 11. 输入过压保护
|
图 12. 输入欠压保护
|
3.2.2 输出过压及欠压保护机制
在系统上需要输出过压与欠压保护,是为确保后级 DRAM 不被异常电压损伤,并维持整体稳定运作,如图 13 和图 14 所示。输出过压可能导致组件击穿与过热,输出欠压则易造成数据读写错误与反复重启等问题。透过在输出电压超出允许范围时立即停止并透过撤销 Power Good 上报故障,可快速进入安全状态,避免故障扩散且便于诊断与恢复状态,同时提升可靠度并满足 DRAM 电压范围规格要求。立锜产品在输出过压及欠压保护皆有不同的设定准位,方便系统设计者规划整体系统保护,详细内容可参考各产品之规格书。
|
|
|
|
图 13. 输出过压保护
|
图 14. 输出欠压保护
|
3.2.3 输出过流保护机制
系统需要输出过电流保护,是因为输出端出现短路、负载过载或并载瞬间等情况会使输出电流超出设计上限,导致 IC、电感、PCB 走线过热受损,并引起电压下陷、不稳定甚至安全风险。透过过电流保护机制如图 15 所示,在异常发生时进行限流,必要时立即关闭输出并透过撤销 Power-Good 上报故障,可快速切断能量,避免故障扩散,并与过热保护与欠压保护协同,实现受控恢复,且提升可靠度与寿命、满足安规与质量要求、降低维修成本。立锜产品在输出过流保护有不同的设定准位,方便系统设计者依照实际系统负载规划相应之过流保护,详细内容可参考各产品之规格书。
图 15. 输出过电流保护
3.2.4 标准的 EOS 组件耐压实测
EOS(Electrical Overstress)防护能力是确保产品可靠性的关键指针。针对 DDR5 服务器电源管理 IC 系列的两个输入端,依据 JEDEC 标准分别进行 37V 与 10V 的脉冲电压测试,仿真可能遭遇的瞬间高电压情境,如表格 5 所示。
经过严格测试后,立锜电源管理 IC 不仅完全符合标准要求,且展现出更高的耐受度,能有效抵抗超出规范的电气过应力事件。这代表在实际应用中,即使遇到异常电压突波,立锜电源管理 IC 依然能维持稳定运作,为客户提供更高的安全性与可靠性保障。
表格 5. Vin_Bulk 与 Vin_Mgmt 輸入 Pin EOS 测试结果
|
VIN_BULK Pin EOS 测试结果
|
VIN_MGMT Pin EOS 测试结果
|
|
|
|
|
|
|
3.3 高能效、良好热管理
热管理,立锜采用高效率同步整流技术,电源转换效率可达 92% 以上,有效降低能耗与发热量。同时,透过精准 ADC 温度监控与过温保护机制,确保系统在高负载下仍能维持稳定运作与防止工作温度超过组件可耐受极限,延长组件寿命并提升服务器系统的可靠度。
立锜电源管理 IC 透过电路设计优化与制程技术提升,显著提高电源转换效率。根据以下图 16 至图 18 实测结果,立锜产品的效率不仅优于 JEDEC 标准规格,亦高于同级竞品的平均水平。也就是在相同工作条件下,立锜电源管理 IC 能有效降低服务器的整体能耗,减少热能产生,进一步降低散热系统的设计压力与能源支出。
|
|
|
|
图 16. VDD(SWA/B/E) Efficiency
|
图 17. VDDQ(SWC/F) Efficiency
|
|
|
|
|
图 18. VPP(SWD) Efficiency
|
|
3.3.1 高温警示回报机制
立锜电源管理 IC 在 DDR5 服务器应用上具备高精度的温度回报功能,能在温度达到 85 度时自动启动保护机制,确保系统安全运作。每一阶段的温度回报误差均控制在 ±5 度以内,如表格 6 所示,提供精确且可靠的温度监控。这项特性不仅符合严格的规范要求,更大幅提升产品在各种应用环境下的安全性与稳定性。
表格 6. 温度量测
| PMIC Ambient Temperature |
PMIC Temperature Measurement |
| 85°C |
85°C |
| 95°C |
96°C |
| 105°C |
106°C |
| 115°C |
117°C |
| 125°C |
127°C |
| 135°C |
138°C |
3.3.2 过温保护机制
立锜电源管理 IC 内建过温保护机制,当温度超过 145 度时,系统会实时启动保护措施,关闭所有输出电压,如图 19 所示,并透过 Power Good 讯号精确上报故障状态。此设计能有效防止因过热造成的损坏,确保设备安全运作,同时让用户能及时掌握系统健康状况,提升整体可靠性。
图 19. 过温保护
总结
立锜服务器内存电源解决方案在电压精度、动态响应、可靠度与效率等关键指标上,皆符合高阶服务器平台需求。透过高精度回授与快速补偿架构,可在负载与温度变化下维持稳定输出,确保 DDR5 内存于高速运作时仍具足够电源裕量,降低系统不稳定风险。
方案整合多重保护与状态回报机制,提升平台容错能力与长时间运作可靠度。高效率、低损耗设计可有效降低功耗与发热,简化散热设计并改善系统能效。
所有方案皆符合 Intel 电源规范与 AVL 要求,并通过多家 DRAM 原厂系统验证,可直接导入主流服务器平台,缩短开发与验证时程。
立锜结合电源管理核心技术与服务器平台经验,持续优化架构与设计,提供具竞争力的内存电源解决方案,并透过持续研发与伙伴合作,推动服务器平台效能与可靠度的提升。
若要获得更多产品的产品信息,请订阅我们的电子报。